Programmation dynamique à base de points pour la résolution des DEC-POMDPs

نویسندگان

  • Daniel Szer
  • François Charpillet
چکیده

RÉSUMÉ. Nous présentons un nouvel algorithme de planification pour la construction de systèmes multi-agents réactifs et situés pouvant se modéliser par des processus de décision de Markov décentralisés (DEC-POMDP). Cet algorithme est fondé sur la programmation dynamique à base de points. Il est dérivé de techniques de programmation dynamique optimale utilisées pour résoudre des jeux stochastiques partiellement observables(POSG) et des techniques d’approximation utilisées pour résoudre des POMDP mono-agents. Nous montrons pour la première fois qu’il est possible de déterminer un ensemble d’états de croyance multi-agent pertinents, et nous montrons comment ce calcul permet ensuite d’éviter le recours à la programmation linéaire très couteuse dans le cas multi-agent. Nous détaillons une version exacte et une version approximative de notre algorithme, et nous montrons son efficacité sur un exemple de la littérature.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Prise de décision en temps-réel pour des POMDP de grande taille

RÉSUMÉ. Cet article présente une méthode d’approximation pour les processus décisionnels de Markov partiellement observables (POMDP) qui est basée sur une recherche en profondeur pour la planification dans un environnement temps-réel dynamique. L’idée de base de notre approche, appelée RTBSS (Real-Time Belief Space Search), est d’éviter de calculer des politiques complètes pour des POMDPs. Cett...

متن کامل

Conditions générales pour l'admissibilité de la programmation dynamique dans la décision séquentielle possibiliste

RÉSUMÉ. Nous nous intéressons à la contrepartie possibiliste des processus de décision markoviens. À l’instar du modèle classique, trois relations de préférence peuvent être distinguées (préférences sur les chemins, sur les loteries et sur les politiques). Nous énonçons des propriétés simples et suffisantes (transitivité, invariance par translation, indépendance) sur la relation de préférence s...

متن کامل

Processus de décision markoviens et préférences non classiques

RÉSUMÉ. Le modèle classique des processus de décision markoviens repose implicitement sur une structure de préférence induite par l’existence de coûts scalaires additifs et l’utilisation d’un certain critère d’évaluation des politiques (total, total pondéré, moyenne, ...). Cette structure de préférence s’appuie sur des hypothèses fortes permettant de vérifier les principes de la programmation d...

متن کامل

Classification non supervisée des données hétérogènes à large échelle

Résumé. Quand il sera question de classifier des données massives, le temps de réponse, l’accès disque et la qualité des classes formées deviennent des enjeux majeurs pour les entreprises. C’est dans ce cadre que nous avons été amenés à définir un cadre de classification non supervisée des données hétérogènes à large échelle qui contribue à la résolution de ces enjeux. Le cadre proposé s’articu...

متن کامل

ReactiveML, un langage fonctionnel pour la programmation réactive

RÉSUMÉ. La programmation de systèmes réactifs tels que les simulateurs de systèmes dynamiques ou les jeux vidéo est une tâche difficile. Les techniques classiques pour programmer ces systèmes sont fondées sur l’utilisation de bibliothèques de threads ou de programmation événementielle. Nous introduisons ici le langage REACTIVEML comme une alternative à ces pratiques. Le langage est une extensio...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2006